Introducción al análisis espacial con R

Residencia de Epidemiología

Contribución esperada

Incorporar habilidades técnicas vinculadas con el análisis espacial básico mediante lenguaje R y paquetes específicos.

Objetivos:

Se espera que al finalizar este taller lxs participantes puedan:

  • Utilizar R + RStudio para gestionar datos espaciales aplicados a la epidemiología.
  • Conocer y utilizar los paquetes específicos que R tiene para el análisis espacial.
  • Elaborar mapas estáticos y dinámicos donde visualizar la morbi-mortalidad de las poblaciones.
  • Aplicar técnicas básicas de análisis de patrones de puntos y polígonos.

Materiales


Durante la cursada vamos a trabajar con diapositivas, materiales de lectura-consulta, trabajos prácticos y diferentes recursos que estarán publicados en el sitio https://datos-ine.github.io/GeoR/


El taller tendrá 5 encuentros presenciales, los días ….

  • Constarán de una exposición del tema a partir de diapositivas y una parte práctica (con un script guiado).

  • Recuerden que me ubican al mail y mi Whatsapp 223-5309396

Introducción a la epidemiología espacial


  • El interés en la epidemiología espacial comenzó con el reconocimiento de los mapas como herramientas útiles para esclarecer las posibles “causas” de las enfermedades.
  • Representa a una de las tres variables fundamentales en epidemiología (lugar) y parte de la triada ecológica (medio ambiente)


Por lo tanto, reconocemos que todo espacio geográfico poblacional, porta una historia ecológica, biológica, económica, conductual y cultural que se relaciona con la manera de enfermar.

Ejemplo icónico: Mapa de Snow

El estudio del Dr. John Snow sobre la epidemia de cólera de Londres en 1854 proporciona uno de los ejemplos más famosos de epidemiología espacial. Snow creía que el cólera se transmitía a través del agua potable, pero en ese momento, esta teoría fue recibida con un escepticismo extremo (Snow 1855; Frerichs 2000)

Sistemas de Información Geográfica


Los sistemas de información geográfica (SIG) estan en plena evolución desde el año 1962 en que apareció la idea original.


Según su definición, un SIG, también habitualmente citado como GIS por las siglas de su nombre en inglés Geographical Information System, es un conjunto de herramientas que integra y relaciona diversos componentes que permiten la organización, almacenamiento, manipulación, análisis y modelización de grandes cantidades de datos procedentes del mundo real que están vinculados a una referencia espacial, facilitando la incorporación de aspectos sociales-culturales, económicos y ambientales que conducen a la toma de decisiones de una manera más eficaz.

Sistemas de Información Geográfica


Los SIG constan de 3 etapas:

  • Captura y organización de datos

  • Manipulación de datos y análisis espaciales

  • Visualización y salida de datos

Existen como aplicaciones independientes:

  • comerciales: ArcGIS, MapInfo, etc

  • libres/open source: QGIS, gvSIG, etc

  • lenguajes de programacion: R, python, javascript, etc

Sistema de coordenadas geográficas


  • se han desarrollado muchos sistemas de coordenadas diferentes para hacer referencia a un punto único en la superficie de la Tierra, hasta definir una convención internacional, el sistema de latitud y longitud.
  • la Tierra no es una esfera perfecta ni un elipsoide perfecto, y su superficie no es lisa, lo que complica el cálculo de ubicaciones precisas.
  • el sistema de latitud y longitud proporciona un medio para hacer referencia de forma única a cualquier punto en la superficie de una esfera, en un plano bidimensional.
  • existe un elemento más, utilizado en algunas situaciones tridimensionales, la altura.

Sistema de coordenadas geográficas

Longitud

  • las líneas de longitud rodean la Tierra pasando por los polos norte y sur.
  • todos los lugares en el mismo meridiano tienen la misma longitud.
  • la línea de longitud que pasa por el Observatorio de Greenwich en Inglaterra tiene el valor 0.
  • debido a su naturaleza rotacional, informamos la longitud en grados (0 a 180) al este o al oeste desde el meridiano 0, con meridianos al oeste de 0 de longitud denominados longitud oeste y aquellos al este de 0 denominados longitud este.
  • como la superficie de la Tierra es curva, la distancia entre dos meridianos depende de dónde nos encontremos en la Tierra: la distancia intermeridiana es menor cerca de los polos y mayor cerca del ecuador.

Latitud

  • las líneas de latitud, perpendiculares a las líneas de longitud, se llaman paralelos y hacen referencia a las posiciones norte-sur.
  • el ecuador se designa como latitud 0 (el círculo más grande definido por un plano perpendicular al eje de rotación de la Tierra).
  • la latitud mide el ángulo vertical (en grados) entre dos segmentos de línea: uno que va desde la ubicación de interés hasta el centro de la esfera, y el otro que une el ecuador con el centro de la esfera.
  • las diferencias de latitud son constantes en toda la superficie de la Tierra (los paralelos son paralelos entre sí) y 1 grado de latitud equivale a 111 kilómetros aproximadamente.

Proyecciones


Las proyecciones cartográficas son transformaciones matemáticas que permiten representar la superficie terrestre en un plano.

Toda proyección cartográfica:

  • es un sistema de representación gráfica
  • permiten convertir coordenadas esféricas en coordenadas planas
  • distorsionan la forma, el área, la distancia y la dirección de los datos

Algunas conocidas son Mercator, Gauss-Krüger y Lambert Equiareal.

Proyecciones

Proyección para Argentina

Modelos de datos





  • Formato raster

  • Formato vectorial


Formato raster

  • El formato raster se fundamenta en la división del área de estudio en una matriz de celdas regulares, generalmente cuadradas.

  • cada una de estas celdas recibe un único valor que se considera representativo para toda la superficie abarcada por la misma

  • se trata de un formato de dato que se centra en las propiedades del espacio y es el más adecuado cuando se desea modelizar variables continuas en el espacio, como por ejemplo: temperatura superficial de la Tierra.

  • el píxel es la menor unidad de información y determina la resolución espacial de una imagen raster.

  • cuanto mayor es la resolución espacial, menor es el tamaño del píxel en unidades sobre el terreno. Por ejemplo una imagen raster con una resolución espacial de 30m significa que no podrá discriminar entre dos objetos que se encuentren separadas a una distancia menor de 30m.

Formato vectorial


  • El formato vectorial está compuesto por entidades geográficas. Las básicas son: puntos, líneas y polígonos.

  • estas entidades se asociación con atributos particulares, es decir con tablas de datos asociadas.

  • los datos vectoriales implican mucho menos almacenamiento que el formato raster, ya que almacenamos datos de atributos solo para puntos, líneas y áreas en lugar de para cada píxel.

Entidades geográficas vectoriales



  • Punto: localización precisa en el espacio. Ejemplo: domicilios georeferenciados
  • Línea: colección secuencial de puntos conectados. Ejemplo: calles, ríos, etc. Permiten medir distancia.
  • Polígono: región encerradas por líneas. Ejemplo: provincias, departamentos, radios censales, etc. Permiten medir perímetro y área.

Sistema de Posicionamiento Global (GPS)


  • es un sistema de navegación por satélite que proporciona información de ubicación, navegación y cronometría.
  • es un servicio gratuito y disponible en todo el mundo
  • funciona mediante una red de 24 satélites (21 operativos y 3 de respaldo) que orbitan sobre la Tierra a una altura aproximada de 20.200 km, con trayectorias sincronizadas para cubrir toda la superficie del globo.
  • utiliza el sistema de referencia internacional WGS84

Sistema de Coordenadas de Referencia (CRS)


  • define, con la ayuda de coordenadas, como el mapa bidimensional proyectado se relaciona con ubicaciones reales de la Tierra.
  • se pueden dividir en sistemas de referencia de coordenadas geográficas y sistemas de referencia de coordenadas proyectados,
  • puede ser un CRS esferoidal como WGS84, un CRS proyectado, cartesiano, como una zona UTM o Web Mercator, o un CRS en tres dimensiones.
  • existen dos formas de describir un CRS en R para datos espaciales:
    • códigos epsg
    • definiciones proj4string

Código EPSG


  • El código epsg recibe su nombre European Petroleum Survey Group o EPSG (1986 – 2005) que actualmente no existe. El estándar lo mantiene la International Association of Oil and Gas Producers Surveying and Positioning Committee (OGP). https://epsg.io/ - http://spatialreference.org/

  • el código epsg más utilizado universalmente es el 4326 que refiere al sistema de coordenadas WGS 84 (World Geodetic System 1984), en el que se basa todo el sistema de GPS en el mundo.

  • en nuestro país, el estándar actual (desde 2009) es el POSGAR 07, basado en WGS 84. Su código epsg es el 5340.

Definición proj4string


  • contiene un conjunto de parámetros como el tipo de proyección, el datum y el elipsoide.

  • el datum proporciona un marco de referencia para medir ubicaciones en la superficie de la Tierra

  • el elipsoide define como se calcula la redondez de la Tierra.

La definición proj4string CRS(“+init=epsg:4326”)

CRS arguments: +init=epsg:4326 +proj=longlat +datum=WGS84 +no_defs +ellps=WGS84 +towgs84=0,0,0

GDAL


  • GDAL es una biblioteca de formatos de datos geoespaciales (ráster y vectoriales)

  • código abierto publicado por la Open Source Geospatial Foundation

  • posee API (Application Programming Interface) que la vincula con múltiples lenguajes

  • actualmente los paquetes sf y raster utilizan aproximadamente 75 formatos de la librería

  • los formatos de uso más común son ESRI shapefile (shp), GeoJSON (json), rds nativos de R, MapInfo, Carto, etc.

Paquetes en R

Manejo de datos espaciales

  • sf
  • terra (tidyterra)
  • stars

Visualización de mapas

  • tmap
  • mapsf
  • leaflet
  • mapview

Herramientas espaciales

  • tmaptools

Análisis espacial

  • spatstat
  • spatial
  • gstat
  • spdep

Paquete sf


  • El modelo geométrico sf (simple feature) es un estándar de código abierto desarrollado y respaldado por el Open Geospatial Consortium (OGC) para representar una amplia gama de información geográfica.

  • los objetos son simples dataframes con datos geográficos que ocupan una variable especial. Esta columna generalmente se llama ”geom” o ”geometry”.

  • las geometrías más comunes de datos espaciales son clase Point, Multipoint, Linestring, Multilinestring, Polygon y Multipolygon.

  • permite leer y escribir datos mediante GDAL, ejecutar operaciones geométricas con GEOS (para coordenadas proyectadas) y realizar transformaciones de coordenadas con PROJ.

Componentes de un objeto sf


Paquete terra


  • incluye funciones para crear, leer, manipular y escribir datos ráster.

  • permite leer archivos raster grandes desde el disco rigido directamente (sin cargarlos completos en la RAM).

  • provee dos clases: SpatRaster (rast()) y SpatVector (vect())

  • para hacer compatibles los formatos SpatRaster y SpatVector con tidyverse, debemos usar el paquete tidyterra. Permite usar ggplot2 con capas geom_spatraster y geom_spatvector

Lectura de archivos

  • El paquete sf, junto con tidyverse, tiene la función sf_read() para importar archivos espaciales (shp, json, kml, etc)
datos_espaciales <- read_sf("mapa.shp")
  • El paquete terra, utiliza la función vect() para importar datos espaciales vectoriales y rast() para datos raster.
mapa <- system.file("mapa.shp", package="terra")

mapa_vectorial <- vect(mapa)
########################

mapa <- system.file("mapa.tif", package="terra")

mapa_raster <- rast(mapa)

Algunas fuentes de archivos de mapas



Servidores de mapas


  • Open Street Map

  • ESRI

  • CartoDB

  • Stamen

  • Stadia

  • AzureMaps

  • Google Maps

  • Jawg

Podemos ver algunas versiones de ellos en https://leaflet-extras.github.io/leaflet-providers/preview/